Lịch sử MP3

Phát triển

Lossy MP3 âm thanh nén dữ liệu thuật toán có lợi thế của một giới hạn nhận thức của người nghe gọi là nhĩ mặt nạ. Năm 1894, nhà vật lý người Mỹ Alfred Marshall Mayer đã báo cáo rằng một giai điệu có thể được trả lại không nghe được bởi một âm thanh tần số thấp hơn [14] Năm 1959, Richard Ehmer mô tả một bộ hoàn chỉnh các đường cong thính giác liên quan đến hiện tượng này. [15] Ernst Terhardt et al. tạo ra một thuật toán mô tả mặt nạ thính giác với độ chính xác cao. [16] Công việc này được thêm vào một loạt các báo cáo từ các tác giả hẹn hò trở lại Fletcher, và công việc mà ban đầu xác định tỷ lệ quan trọng và băng thông quan trọng.

Các codec che của tâm lý học đã được đề xuất lần đầu tiên vào năm 1979, dường như độc lập, Manfred R. Schroeder, et al [17] từ AT & T-Bell Labs ở Murray Hill, NJ, và MA Krasner. [18] ở cả Hoa Kỳ. Krasner là người đầu tiên để xuất bản và sản xuất phần cứng cho bài phát biểu (không có thể sử dụng như nén bit âm nhạc), nhưng việc công bố kết quả của mình tương đối ít người biết như là một phòng thí nghiệm Lincoln Báo cáo kỹ thuật không ngay lập tức ảnh hưởng đến dòng chính của tâm lý học phát triển bộ giải mã. Manfred Schroeder đã là một nhân vật nổi tiếng và được kính trọng trong cộng đồng trên toàn thế giới của các kỹ sư âm và điện, nhưng tờ báo của ông đã không được nhiều chú ý, vì nó mô tả kết quả tiêu cực do tính đặc thù của ngôn luận và dự đoán được mã hóa tuyến tính (LPC) trình bày trong bài phát biểu. Cả Krasner và Schroeder xây dựng dựa trên công việc thực hiện bởi Eberhard F. Zwicker trong các lĩnh vực điều chỉnh và mặt nạ của các ban nhạc quan trọng, [19] [20] mà lần lượt được xây dựng trên các nghiên cứu cơ bản trong khu vực từ Bell Labs Harvey Fletcher và cộng tác viên [21] Một loạt rộng của. (chủ yếu là cảm nhận) các thuật toán nén âm thanh đã được báo cáo trong Tạp chí refereed IEEE Khu vực được chọn trong Truyền thông [22] Đó là tạp chí báo cáo trong tháng 2 năm 1988 trên một loạt thành lập, công nghệ nén làm việc âm thanh bit., một số người trong số họ sử dụng mặt nạ thính giác như là một phần của thiết kế cơ bản của họ, và một số cho thấy việc triển khai phần cứng thời gian thực.

Những người tiền nhiệm của MP3 "mã hoá tối ưu trong miền tần số" (OCF), [23] và Perceptual chuyển đổi Coding (PXFM) [24]. Hai codec, cùng với khối chuyển đổi đóng góp từ Thomson-Brandt, đã được sáp nhập vào một codec được gọi là ASPEC, đã được gửi sang MPEG, và giành được sự cạnh tranh chất lượng, nhưng bị nhầm lẫn từ chối là quá phức tạp để thực hiện. Là người đầu tiên thực tế thực hiện của một coder cảm nhận âm thanh (OCF) trong phần cứng (phần cứng Krasner là quá cồng kềnh và chậm cho sử dụng thực tế), là một thực hiện một coder biến đổi của tâm lý học dựa trên Motorola 56.000 chip DSP.

Là một sinh viên tiến sĩ tại Đại học Erlangen-Nuremberg Đức Karlheinz Brandenburg đã bắt đầu làm việc trên nén nhạc kỹ thuật số đầu những năm 1980, tập trung vào cách người ta cảm nhận âm nhạc. Ông đã hoàn thành công việc tiến sĩ của mình vào năm 1989 [25] MP3 được trực tiếp xuống từ OCF và PXFM, đại diện cho các kết quả của sự hợp tác của Brandenburg -. Làm việc như là một tiến sĩ tại AT & T-Chuông Labs với James D. (JJ) Johnston của AT & T-Chuông Labs - với Viện Fraunhofer mạch tích hợp, Erlangen, với sự đóng góp tương đối nhỏ từ các chi nhánh MP2 sub-band lập trình tâm lý học. Năm 1990, Brandenburg đã trở thành một trợ lý giáo sư tại Erlangen-Nuremberg. Trong khi đó, ông tiếp tục làm việc trên nén nhạc với các nhà khoa học tại Hiệp hội Fraunhofer (vào năm 1993, ông tham gia các nhân viên của Viện Fraunhofer). [25]

"Diner Tom" bài hát của Suzanne Vega là bài hát đầu tiên được sử dụng bởi Karlheinz Brandenburg để phát triển các MP3. Brandenburg đã thông qua các bài hát cho mục đích thử nghiệm, nghe nó một lần nữa và một lần nữa mỗi lần tinh chỉnh các chương trình, đảm bảo nó không gây ảnh hưởng xấu đến sự tinh tế của tiếng nói của Vega.

Tiêu chuẩn

Năm 1991, chỉ có hai đề xuất có sẵn mà có thể được hoàn toàn đánh giá tiêu chuẩn cho một âm thanh MPEG: Musicam (Masking mô hình thích nghi Universal băng con tích hợp mã Và Multiplexing) và ASPEC (thích ứng quang phổ Perceptual Entropy Coding). Kỹ thuật Musicam, theo đề nghị của Philips (Hà Lan), CCETT (Pháp) và Institut für Rundfunktechnik (Đức) đã được lựa chọn do đơn giản và mạnh mẽ lỗi, cũng như điện năng thấp tính toán liên quan của nó với mã hóa chất lượng cao âm thanh nén [26] Các định dạng Musicam, dựa trên mã hóa băng tần phụ, là cơ sở của các định dạng nén MPEG Audio (tỷ lệ lấy mẫu, cấu trúc của khung hình, tiêu đề, số lượng mẫu cho mỗi frame).

Phần lớn của công nghệ và ý tưởng đã được đưa vào định nghĩa của ISO MPEG Audio Layer I và lớp II và ngân hàng các bộ lọc một mình vào lớp định dạng (MP3) III như là một phần của ngân hàng tính toán không hiệu quả lọc lai. Dưới sự chủ trì của giáo sư Musmann (Đại học Hannover), chỉnh sửa các tiêu chuẩn được thực hiện theo trách nhiệm của Leon van de Kerkhof (Layer I) và Gerhard Stoll (Layer II).

ASPEC là đề nghị của các phòng thí nghiệm AT & T Bell, Thomson Điện tử, Fraunhofer Society và CNET [27] Nó cung cấp hiệu quả mã hóa cao nhất.

Một nhóm công tác bao gồm Leon van de Kerkhof (Hà Lan), Gerhard Stoll (Đức), Leonardo Chiariglione (Italy), Yves-François Dehery (Pháp), Karlheinz Brandenburg (Đức) và James D. Johnston (USA) mất ý tưởng từ ASPEC, tích hợp các ngân hàng bộ lọc từ lớp 2, bổ sung thêm một số ý tưởng của mình và tạo ra MP3, được thiết kế để đạt được cùng một chất lượng tại 128 kbit / s như MP2 tại 192 kbit / s.

Tất cả các thuật toán cho âm thanh MPEG-1 lớp I, II và III đã được phê duyệt vào năm 1991 [8] [9] và hoàn tất vào năm 1992 [10] như là một phần của MPEG-1, bộ tiêu chuẩn đầu tiên MPEG, mà kết quả trong tiêu chuẩn quốc tế ISO / IEC 11.172-3 (hay còn gọi là MPEG-1 Audio hay MPEG-1 3), được xuất bản vào năm 1993. [5]

Tiếp tục làm việc trên MPEG audio [28] đã được hoàn thành vào năm 1994 như một phần của bộ ứng dụng thứ hai của tiêu chuẩn MPEG, MPEG-2, chính thức được gọi là tiêu chuẩn quốc tế ISO / IEC 13.818-3 (hay còn gọi là MPEG-2 Phần 3 hoặc tương thích ngược MPEG- 2 Audio MPEG-2 âm thanh BC [11]), ban đầu được xuất bản vào năm 1995 [6] [29] MPEG-2 Part 3 (ISO / IEC 13.818-3) xác định tỷ lệ bit thêm và tỷ lệ mẫu cho lớp âm thanh MPEG-1 I, II và III. Các tỷ lệ lấy mẫu mới chính xác là một nửa của những người ban đầu được xác định trong Audio-1 MPEG. Điều này giảm tỷ lệ lấy mẫu phục vụ để cắt âm tần có sẵn trong một nửa trong khi tương tự như vậy cắt giảm bitrate 50%. MPEG-2 Phần 3 cũng tăng cường âm thanh MPEG-1 của bằng cách cho phép mã hóa các chương trình âm thanh với hơn hai kênh, tăng tới 5,1 đa kênh. [28]

Một phần mở rộng bổ sung cho MPEG-2 được đặt tên là MPEG-2.5 âm thanh, như MPEG-3 đã có một ý nghĩa khác. Phần mở rộng này đã được phát triển tại Fraunhofer IIS, chủ sở hữu bằng sáng chế đăng ký MP3. Giống như MPEG-2, MPEG-2.5 cho biết thêm tỷ lệ lấy mẫu mới đúng một nửa mà trước đây có thể với MPEG-2. Do đó mở rộng phạm vi của MP3 để có bài phát biểu của con người và các ứng dụng khác đòi hỏi phải chỉ có 25% tái tạo tần số có thể với MPEG-1. Trong khi không phải một tiêu chuẩn ISO công nhận tiêu chuẩn, MPEG-2.5 được hỗ trợ bởi cả hai cầu thủ tên rẻ tiền và thương hiệu âm thanh kỹ thuật số cũng như phần mềm máy tính dựa trên bộ mã hóa và giải mã MP3. Một tỷ lệ mẫu so sánh giữa MPEG-1, 2 và 2,5 được tiếp tục xuống. [30] [31] MPEG-2.5 đã không được phát triển bởi MPEG và không bao giờ được chấp nhận như một tiêu chuẩn quốc tế. MPEG-2.5 là như vậy, một phần mở rộng không chính thức hoặc độc quyền sang định dạng MP3.

Lưu ý: Các tiêu chuẩn ISO ISO / IEC 11.172-3 (hay còn gọi là MPEG-1 Audio) xác định ba định dạng: MPEG-1 Audio Layer, Layer II và Layer III. Các tiêu chuẩn ISO ISO / IEC 13.818-3 (hay còn gọi là MPEG-2 Audio) được xác định phiên bản mở rộng của MPEG-1 Audio - MPEG-2 Audio Layer, Layer II và lớp III. MPEG-2 Audio (MPEG-2 Phần 3) không nên nhầm lẫn với MPEG-2 AAC (MPEG-2 Phần 7 - ISO / IEC 13.818-7). [11]

Nén hiệu quả của bộ mã hóa thường được định nghĩa bởi tỷ lệ bit, bởi vì tỉ lệ nén phụ thuộc vào độ sâu bit và tỷ lệ lấy mẫu của tín hiệu đầu vào. Tuy nhiên, tỷ lệ nén thường được xuất bản. Họ có thể sử dụng Compact Disc (CD) các thông số như tài liệu tham khảo (44,1 kHz, 2 kênh 16 bit cho mỗi kênh hoặc 2 × 16 bit), hoặc đôi khi Digital Audio Tape (DAT) SP các thông số (48 kHz, 2 × 16 bit). Tỷ lệ nén với tài liệu tham khảo thứ hai cao hơn, chứng tỏ vấn đề với việc sử dụng tỉ lệ nén hạn cho các bộ mã hóa lossy.

Karlheinz Brandenburg sử dụng ghi đĩa CD của bài hát "Tom Diner" để đánh giá và tinh chỉnh các thuật toán nén MP3 Suzanne Vega. Bài hát này được chọn vì tính chất gần như đơn âm và nội dung quang phổ rộng, làm cho nó dễ dàng hơn để nghe không hoàn hảo trong định dạng nén trong quá trình phát lại. Một số đùa tham khảo Suzanne Vega là "Người mẹ của MP3" [33] Một số trích đoạn âm thanh quan trọng hơn (glockenspiel, tam giác, accordion, vv) được lấy từ V3/SQAM EBU đĩa nhỏ gọn tài liệu tham khảo và đã được sử dụng bởi âm thanh chuyên nghiệp các kỹ sư để đánh giá chất lượng chủ quan của các định dạng âm thanh MPEG. Điều này theo dõi cụ thể có một tài sản thú vị trong hai kênh là gần như, nhưng không hoàn toàn giống nhau, dẫn đến một trường hợp mặt nạ Cấp gây ra khủng hoảng Binaural unmasking không gian của các đồ tạo tác tiếng ồn, trừ khi bộ mã hóa đúng cách nhận ra tình hình và áp dụng các điều chỉnh tương tự như những người chi tiết trong mô hình MPEG-2 psychoacoustic AAC.

Ra công chúng

Một tài liệu tham khảo thực hiện phần mềm mô phỏng, được viết bằng ngôn ngữ C và sau đó được gọi là ISO 11.172-5, được phát triển bởi các thành viên của ủy ban ISO MPEG Audio (1991-1996) để sản xuất bit tuân thủ MPEG Audio file (Layer 1, lớp 2, lớp 3). Nó đã được phê duyệt như là một dự thảo của ban soạn thảo báo cáo kỹ thuật của tiêu chuẩn ISO / IEC Tháng 3 năm 1994 và được in như 11.172-5 CD tài liệu trong tháng 4 năm 1994. [34] đã được phê duyệt như dự thảo báo cáo kỹ thuật (DTR / DIS) trong tháng 11 năm 1994, [35 hoàn thành vào năm 1996 và xuất bản như là tiêu chuẩn quốc tế ISO / IEC TR 11172-5:1998 vào năm 1998 [36] Các phần mềm tài liệu tham khảo trong ngôn ngữ C sau đó được xuất bản tự do có sẵn như là một tiêu chuẩn ISO. [37] Làm việc trong không-thời gian thực một số hệ điều hành, nó đã có thể chứng minh thực sự đầu tiên giải mã phần cứng thời gian (DSP based) của âm thanh nén. Một số khác thực hiện theo thời gian thực của các bộ mã hóa MPEG Audio đã có sẵn cho các mục đích kỹ thuật số phát sóng (radio DAB, truyền hình DVB) đối với thu của người tiêu dùng và thiết lập các hộp hàng đầu.

Ngày 07 Tháng Bảy 1994, Hiệp hội Fraunhofer phát hành các bộ mã hóa MP3 phần mềm đầu tiên được gọi là l3enc. [38] Các phần mở rộng tên tập tin mp3 đã được lựa chọn bởi nhóm Fraunhofer trên 14 tháng 7 năm 1995 (trước đây, các tập tin đã được đặt tên. Bit). [1] Với thời gian thực phần mềm đầu tiên máy nghe nhạc MP3 WinPlay3 (phát hành ngày 09 Tháng Chín năm 1995), nhiều người đã có thể để mã hóa và phát lại các tập tin MP3 trên máy tính của họ. Bởi vì các ổ đĩa cứng tương đối nhỏ trở lại trong thời gian đó (~ 500-1000 MB) tổn hao nén là điều cần thiết để lưu trữ không cụ dựa (xem theo dõi và MIDI) âm nhạc để phát lại trên máy tính.

Internet

Trong nửa thứ hai của năm 1994, các tập tin MP3 bắt đầu lan rộng trên Internet. Sự phổ biến của MP3 bắt đầu tăng lên nhanh chóng với sự ra đời của âm thanh máy nghe nhạc Winamp Nullsoft, phát hành vào năm 1997. Năm 1998, trạng thái rắn di động đầu tiên âm thanh kỹ thuật số máy nghe nhạc MPMAN, được phát triển bởi Hệ thống thông tin Saehan có trụ sở tại Seoul, Hàn Quốc, đã được phát hành và Rio PMP300 được bán sau đó vào năm 1998, bất chấp những nỗ lực đàn áp pháp lý của RIAA. [39]

Trong tháng 11 năm 1997, mp3.com trang web được cung cấp hàng ngàn bài nhạc MP3 được tạo ra bởi các nghệ sĩ độc lập miễn phí. [39] kích thước nhỏ của các tập tin MP3 cho phép chia sẻ file peer-to-peer phổ biến rộng rãi của tách nhạc từ đĩa CD, trong đó đã có trước đây đã được gần như không thể. Lớn đầu tiên chia sẻ file peer-to-peer mạng, Napster, đã được đưa ra vào năm 1999.

Dễ dàng tạo và chia sẻ nhạc MP3 kết quả vi phạm bản quyền rộng rãi. Các công ty thu âm lớn cho rằng chia sẻ miễn phí này của âm nhạc đã làm giảm doanh số bán hàng, và gọi đó là "âm nhạc vi phạm bản quyền". Họ đã phản ứng bằng cách theo đuổi các vụ kiện chống lại Napster (mà cuối cùng đã được đóng cửa và sau đó bán) và đối với người dùng cá nhân, những người tham gia trong việc chia sẻ tập tin.

Mặc dù sự phổ biến của các định dạng MP3, các nhà bán lẻ âm nhạc trực tuyến thường sử dụng các định dạng khác thuộc quyền sở hữu được mã hóa hoặc obfuscated để làm cho nó khó khăn để sử dụng các tập tin nhạc mua theo những cách không cụ thể được ủy quyền bởi công ty thu âm. Cố gắng kiểm soát việc sử dụng các tập tin theo cách này được gọi là quản lý quyền kỹ thuật số. Công ty thu âm cho rằng điều này là cần thiết để ngăn chặn các tập tin từ được làm sẵn có trên mạng chia sẻ file peer-to-peer. Điều này có tác dụng phụ khác, mặc dù, như ngăn chặn người sử dụng phát lại âm nhạc của họ mua trên các loại khác nhau của các thiết bị. Tuy nhiên, nội dung âm thanh của những tập tin này thường có thể được chuyển đổi thành một định dạng không được mã hóa. Ví dụ, người sử dụng thường được cho phép để ghi các tập tin audio CD, mà đòi hỏi phải chuyển đổi sang một định dạng âm thanh không được mã hóa.

Chia sẻ tập tin MP3 trái phép vẫn tiếp tục trên các thế hệ tiếp theo của mạng peer-to-peer. Một số dịch vụ có thẩm quyền, chẳng hạn như Beatport, Bleep, Juno ghi, eMusic, Zune Marketplace, Walmart.com, Rhapsody, ngành công nghiệp ghi âm đã được phê duyệt lại hóa thân của Napster, và Amazon.com bán nhạc không hạn chế trong các định dạng MP3.